摘要。随着高能物理领域中机器和深度学习应用数量的不断增加,轻松访问专用基础设施代表了快速高效研发的要求。这项工作探索了不同类型的云服务,以使用 Tensorflow 数据并行策略在并行环境中训练生成对抗网络 (GAN)。更具体地说,我们在多个 GPU 和 Google Tensor 处理单元 (TPU) 上并行化训练过程,并比较了两种算法:TensorFlow 内置逻辑和自定义循环,经过优化可以更好地控制分配给每个 GPU 工作器或 TPU 核心的元素。将生成的数据的质量与蒙特卡罗模拟进行了比较。获得了训练过程的线性加速,同时保留了物理结果方面的大部分性能。此外,我们在多个 GPU 节点上大规模地对上述方法进行基准测试,在不同的公共云提供商上部署训练过程,寻求整体效率和成本效益。数据科学、云部署选项和相关经济学的结合允许异构爆发,探索基于云的服务的全部潜力。
![arXiv:2111.04628v1 [cs.LG] 2021 年 11 月 8 日PDF文件第1页](/bimg/6/63558ff6d138f12182afaf30de95cacedb695c85.webp)
![arXiv:2111.04628v1 [cs.LG] 2021 年 11 月 8 日PDF文件第2页](/bimg/b/b32766a76aacdd0828f01111fb57c444c7cceb1f.webp)
![arXiv:2111.04628v1 [cs.LG] 2021 年 11 月 8 日PDF文件第3页](/bimg/9/9d84006930496fcf88cd236c9936966195ec3131.webp)
![arXiv:2111.04628v1 [cs.LG] 2021 年 11 月 8 日PDF文件第4页](/bimg/3/34b10fbe6220894f738820a01da3074b6217c6fd.webp)
![arXiv:2111.04628v1 [cs.LG] 2021 年 11 月 8 日PDF文件第5页](/bimg/1/1acdf8382d1e4c3d0bc074b3fa4f3a5f017b50f1.webp)
